sql - GROUP BY 和 ORDER BY

sql - 如何在配置单元中选择计数和文字值

为什么此查询返回错误。我试图将表的代码作为常量字符串加载，数据的标志再次作为常量字符串，插入时间和表的计数。我想，让我在编写插入内容之前尝试运行secelct。但出于某种原因，它无法列出我试图从中获取计数的表中的列名。我只需要两个常量值，一个日期和一个计数。也尝试删除groupby，引发另一个错误。hive-e“选择“WEB”作为src_cd，“1Hr”作为Load_Flag，from_unixtime((unix_timestamp(substr(sysDate,0,11),'dd/MMM/yyyy')),'MM/dd/yyyy')作为时间，计数(*)来自博客其中年=2015月=04

配置单和文 section 39 yyyy sql hadoop mapreduce hive hortonworks-data-platform

sql - 斯卡拉 : Spark sqlContext query

我的文件中只有3个事件(第3列)01、02、03。模式是unixTimestamp|id|eventType|date1|date2|date3639393604950|1001|01|2015-05-1210:00:18|||639393604950|1002|01|2015-05-1210:04:18|||639393604950|1003|01|2015-05-1210:05:18|||639393604950|1001|02||2015-05-1210:40:18||639393604950|1001|03|||2015-05-1219:30:18|639393604950|1

斯卡拉斯卡 639393604950 date section sql hadoop apache-spark apache-spark-sql parquet

sql - Hive 和选择不匹配的记录

我有两个表，如表A、B，我需要选择A与B的不匹配记录(即A减去B)。A有多列，B是单列(ID)。我试过如下，但是花费了太多时间Select*fromAwhereA.ID(selectB.IDfromB).我也试过了Select*fromAleftouterjoinonBwhereA.ID=B.IDANDB.IDISNULL显示错误的结果请帮我确定解决方案。谢谢。最佳答案使用where子句进行过滤。Select*fromAleftouterjoinBonA.ID=B.IDwhereB.IDISNULL

Hive sql section code pre hadoop mapreduce hiveql

sql-server - 我们可以使用 PostgreSQL 和 PolyBase 来连接 Hadoop 吗？

微软终于进军大数据领域，推出了PolyBase接口(interface)来连接Hadoop，让现有的MSSQLServer用户可以利用Hadoop生态系统存储大量数据。这里我有1个问题，我们可以使用postgreSQL而不是MSSQLServer来使用最近随MSSQLServer2016发布的PolyBase接口(interface)连接Hadoop。我知道还有很多其他方法可以做到这一点，但想特别了解如何使用PolyBase(PDW)。实际上，我的公司总是欢迎微软作为基于其平台的大部分应用程序参与的解决方案。我知道使用PolyBase并行数据仓库是可能的，但需要一些提示才能做到这一点。

sql-server PostgreSQL section PolyBase Server hadoop hortonworks-data-platform azure-hdinsight

hive sql，年月日时分秒格式的数据，以15分钟为时间段，找出每一条数据所在时间段的上下界限时间值（15分钟分区）

获取当前的年月日时分秒selectdate_format(current_timestamp(),'yyyy-MM-ddHH:mm:ss')date_format(时间字段,‘yyyy-MM-ddHH:mm:ss’)将时间字段转为2023-10-1818:14:16这种格式在指定时间上增加15分钟selectfrom_unixtime(unix_timestamp(current_timestamp(),'yyyy-MM-ddHH:mm:ss')+(15*60),'yyyy-MM-ddHH:mm:ss')unix_timestamp：获取当前时间的UNIX时间戳（从1970-01-0100:0

时间段时间 span class token hive sql

scala - 尝试从 UDF 执行 spark sql 查询

我正在尝试使用scala在spark框架中编写一个内联函数，它将接受一个字符串输入，执行一个sql语句并返回一个字符串值valtestfunc:(String=>String)=(arg1:String)=>{valk=sqlContext.sql("""selectc_codefromr_c_tblwherex_nm="something"""")k.head().getString(0)}我正在将此Scala函数注册为UDFvaltestFunc_test=udf(testFunc)我在配置单元表上有一个数据框valdf=sqlContext.table("some_table")

scala spark code section pre apache-spark dataframe hadoop apache-spark-sql

sql - 如何检查 HIVE 中 having 子句的顺序？

我希望能够编写一个查询，告诉我哪些数据组没有序列中的每个数字。例如，我的table是这样的:Columns:sequencegroup10ADM1ADM0GDM2GDM3GDM0WJK而且，我想知道group1中的哪些唯一值包含从0开始并计数的所有数字。因此，在这种情况下，ADM和WJK将被返回，但GDM不会。GDM不会，因为它从0、2、3开始并跳过1。我如何在HIVE中编写查询来告诉我列group1中的哪些唯一值依次包含所有整数？最佳答案 SELECTgroup1FROMTableNameGROUPBYgroup1HAVINGC

having HIVE code section group1 sql hadoop

scala - 将转换从 hive sql 查询移动到 Spark

valtemp=sqlContext.sql(s"SELECTA,B,C,(CASEWHEN(D)in(1,2,3)THEN((E)+0.000)/60ELSE0END)ASZfromTEST.TEST_TABLE")valtemp1=temp.map({temp=>((temp.getShort(0),temp.getString(1)),(USAGE_TEMP.getDouble(2),USAGE_TEMP.getDouble(3)))}).reduceByKey((x,y)=>((x._1+y._1),(x._2+y._2)))我希望在scala中完成转换，而不是上面在配置单

scala Spark temp section getDouble hadoop apache-spark hive

azure - 从 Azure SQL 数据仓库查询 Hadoop ORC 表

我在从AzureSQL数据仓库读取在AzureHDInsight中创建的ORC表时遇到问题。请参阅下面的顺序来设置HDInsight实例以及AzureSQL数据仓库。我创建了一个文本文件(Sales.txt)，内容如下20150614|1|10.5020150618|1|100.7520150924|1|89.7520160214|2|10456.9020150922|3|34.7020151021|3|43.7020151225|3|65.9020151231|3|87.5020160101|4|1349.4020160512|4|3982.4020150608|5|398.9020

Hadoop azure code li Sales orc azure-sqldw

sql - 对分组列 Hive 的操作

在Hive表中，我有它们的实际销售额和预测。所以数据看起来像:itemdatesalesDolsalesUnitpredictionU11/1/20165.9910.911/1/20165.4910.912/1/20165.9910.8413/1/20166.0410.92为了计算平均价格，我这样做:createtabledata1asselectitem,date,predictionUfromdataJOIN(selectsum(salesDol)astotDol,sum(salesUnit)astotUnitfromdata);所以在每一行中我都有totDol和totUnit。现

Hive sql code section totDol hadoop

272 273 274275276 277 278